给定一系列自然语言描述,我们的任务是生成与文本相对应的3D人类动作,并遵循指令的时间顺序。特别是,我们的目标是实现一系列动作的综合,我们将其称为时间动作组成。文本条件运动合成中的艺术现状仅采用单个动作或单个句子作为输入。这部分是由于缺乏包含动作序列的合适训练数据,但这也是由于其非自动进取模型公式的计算复杂性,该计算的规模不能很好地扩展到长序列。在这项工作中,我们解决了这两个问题。首先,我们利用了最近的Babel运动文本集合,该收藏品具有广泛的标记作用,其中许多作用以它们之间的过渡为顺序。接下来,我们设计了一种基于变压器的方法,该方法在动作中进行非自动打击,但在动作序列中进行自动加工。与多个基线相比,这种层次配方在我们的实验中被证明有效。我们的方法被称为“为人类动作的时间动作组成”教授,为各种各样的动作和语言描述中的时间构成产生了现实的人类动作。为了鼓励从事这项新任务的工作,我们将代码用于研究目的,以$ \ href {toch.is.tue.mpg.de} {\ textrm {我们的网站}} $。
translated by 谷歌翻译
我们解决了从文本描述中产生不同3D人类动作的问题。这项具有挑战性的任务需要两种方式的联合建模:从文本中理解和提取有用的人类以人为中心的信息,然后产生人类姿势的合理和现实序列。与大多数以前的工作相反,该作品着重于从文本描述中产生单一的,确定性的动作,我们设计了一种可以产生多种人类动作的变异方法。我们提出了Temos,这是一种具有人体运动数据的变异自动编码器(VAE)训练的文本生成模型,并结合了与VAE潜在空间兼容的文本编码器结合使用的文本编码器。我们显示Temos框架可以像先前的工作一样产生基于骨架的动画,以及更具表现力的SMPL身体运动。我们在套件运动语言基准上评估了我们的方法,尽管相对简单,但对艺术的状态表现出显着改善。代码和模型可在我们的网页上找到。
translated by 谷歌翻译
生物学和人造药物需要处理现实世界中的不断变化。我们在四个经典的连续控制环境中研究了这个问题,并通过形态扰动增强。当不同身体部位的长度和厚度变化时,学习势头是挑战性的,因为需要控制政策才能适应形态以成功平衡和推进代理。我们表明,基于本体感受状态的控制策略的表现差,可以通过高度可变的身体配置,而(甲骨文)代理可以访问学习扰动的编码的(甲骨文)的性能要好得多。我们介绍了DMAP,这是一种以生物学启发的,基于注意力的策略网络体系结构。 DMAP将独立的本体感受处理,分布式策略与每个关节的单个控制器以及注意力机制结合在一起,从不同身体部位到不同控制器的动态门感觉信息。尽管无法访问(隐藏的)形态信息,但在所有考虑的环境中,DMAP都可以端对端训练,整体匹配或超越了Oracle代理的性能。因此,DMAP是从生物运动控制中实施原理的,为学习挑战的感觉运动任务提供了强烈的诱导偏见。总体而言,我们的工作证实了这些原则在挑战运动任务中的力量。
translated by 谷歌翻译
自动估计读者文本的复杂性具有多种应用程序,例如向语言学习者推荐具有适当复杂性的文本或支持文本简化方法的评估。在本文中,我们介绍了2022年文本复杂性的提交,这是一项回归任务,目的是预测B级的德国学习者对德国学习者的复杂性德国Wikipedia和其他Corpora训练基于变压器的模型,并避免任何功能工程或任何其他标记的数据。我们发现,基于伪标签的方法给出了令人印象深刻的结果,但几乎不需要对特定任务进行调整,因此很容易适应其他域和任务。
translated by 谷歌翻译
我们提出了一种新型的机器学习方法,用于从晶格量子场理论的高维概率分布中取样。我们的建议不是迄今为止用于此任务的深层体系结构,而是基于单个神经效果层,并结合了问题的完整对称性。我们在$ \ phi^4 $理论上测试了我们的模型,这表明它系统地优于先前提出的采样效率基于流动的方法,并且对于较大的晶格而言,改进尤其明显。与以前的基线模型相比,我们将关键指标(有效样本量)提高了,从1%到91%,尺寸为$ 32 \ times 32 $。我们还证明,我们的模型可以成功学习一个连续的理论家庭,并且可以将学习结果转移到更大的晶格中。与传统的基于MCMC的方法相比,这种概括能力进一步突出了机器学习方法的潜在优势。
translated by 谷歌翻译
The advent of Federated Learning (FL) has ignited a new paradigm for parallel and confidential decentralized Machine Learning (ML) with the potential of utilizing the computational power of a vast number of IoT, mobile and edge devices without data leaving the respective device, ensuring privacy by design. Yet, in order to scale this new paradigm beyond small groups of already entrusted entities towards mass adoption, the Federated Learning Framework (FLF) has to become (i) truly decentralized and (ii) participants have to be incentivized. This is the first systematic literature review analyzing holistic FLFs in the domain of both, decentralized and incentivized federated learning. 422 publications were retrieved, by querying 12 major scientific databases. Finally, 40 articles remained after a systematic review and filtering process for in-depth examination. Although having massive potential to direct the future of a more distributed and secure AI, none of the analyzed FLF is production-ready. The approaches vary heavily in terms of use-cases, system design, solved issues and thoroughness. We are the first to provide a systematic approach to classify and quantify differences between FLF, exposing limitations of current works and derive future directions for research in this novel domain.
translated by 谷歌翻译
在艺术音乐生成中使用机器学习会引起人们对艺术质量的有争议的讨论,而客观量化是荒谬的。因此,我们将音乐生成的算法视为与人类音乐家的对手,在这种环境中,相互互动的相互作用是为音乐家和观众带来新的体验。为了获得这种行为,我们求助于经常性变异自动编码器(VAE)的框架,并学会产生由人类音乐家种植的音乐。在学习的模型中,我们通过在潜在空间中插值生成新颖的音乐序列。但是,标准VAE不能保证其潜在表示中的任何形式的平滑度。这转化为生成的音乐序列的突然变化。为了克服这些局限性,我们将解码器的正规化并赋予潜在空间,并具有平坦的riemannian歧管,即是欧几里得空间等均衡的歧管。结果,在潜在空间中线性插值会产生逼真而平稳的音乐变化,适合我们目标的机器 - 音乐互动。我们通过音乐数据集上的一组实验为我们的方法提供了经验证据,并为与专业鼓手的交互式jam会话部署了模型。现场表演提供了定性的证据,表明鼓手可以直观地解释和利用潜在的代表来推动相互作用。除了音乐应用之外,我们的方法还展示了由可解释性和与最终用户的互动驱动的机器学习模型设计的实例。
translated by 谷歌翻译
本文讨论了一种识别蜂窝块片段轮廓的算法。显示了OpenCV库的现成功能的不适用性。考虑了两个提出的算法。直接扫描算法在二值化图像中找到极端的白色像素,它充分适用于产品的凸形形状,但在凹形区域和产品的空腔中找不到轮廓。为了解决这个问题,提出了一种使用滑动矩阵的扫描算法,其在任何形状的产品上正常工作。
translated by 谷歌翻译
增加光伏(PV)工厂的部署需要在模态中自动检测故障PV模块,例如红外(IR)图像。最近,深入学习已经为此受欢迎。然而,相关的作品通常是来自相同分布的样本列车和测试数据忽略不同光伏工厂数据之间的域移位的存在。相反,我们将故障检测视为更现实无监督的域适应问题,我们在训练一个源PV工厂的标记数据并在另一个目标工厂进行预测。我们培训具有监督对比损失的Reset-34卷积神经网络,在其中我们采用K-Collect Exband Classifier来检测异常。我们的方法在接收器下实现令人满意的区域(Auroc),在九个源和目标数据集的九种组合中的达到73.3%至96.6%,其中8.5%的8.5%是异常的。在某些情况下,它甚至优于二进制交叉熵分类器。固定决策阈值,这导致79.4%和77.1%分别正确分类正常和异常图像。大多数错误分类的异常具有低严重程度,例如热二极管和小型热点。我们的方法对封锁率设置不敏感,汇聚快速并可靠地检测未知类型的异常,使其适合实践。可能的用途是自动PV工厂检测系统或通过过滤普通图像来简化IR数据集的手动标记。此外,我们的工作为使用无监督域适应的PV模块故障检测提供了更现实的观点,以开发具有有利的概括功能的更加性能的方法。
translated by 谷歌翻译
我们提出了一种用于多实例姿态估计的端到端培训方法,称为诗人(姿势估计变压器)。将卷积神经网络与变压器编码器 - 解码器架构组合,我们将多个姿势估计从图像标记为直接设置预测问题。我们的模型能够使用双方匹配方案直接出现所有个人的姿势。诗人使用基于集的全局损失进行培训,该丢失包括关键点损耗,可见性损失和载重损失。诗歌的原因与多个检测到的个人与完整图像上下文之间的关系直接预测它们并行姿势。我们展示诗人在Coco Keypoint检测任务上实现了高精度,同时具有比其他自下而上和自上而下的方法更少的参数和更高推理速度。此外,在将诗人应用于动物姿势估计时,我们表现出了成功的转移学习。据我们所知,该模型是第一个端到端的培训多实例姿态估计方法,我们希望它将成为一种简单而有前途的替代方案。
translated by 谷歌翻译